ToolLLM - Facilitating Large Language Models to Master 16000+ Real-World APIs
[2307.16789] ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
- LLaMA のようなオープンソース LLM は人間の指示を満たすうえで、外部ツールを API で使用するなど、ツール使用能力において制限されている
- ChatGPT のようなクローズドソース LLM のツール使用能力とは対照的
- → ToolLLM を提案
- データ構築、モデル学習、評価を含む一般的なツール使用フレームワーク
- ツール使用のための命令チューニングデータセット( https://github.com/OpenBMB/ToolBench )
- ChatGPT を用いて自動的に構築される(以下の3段階)
- API 収集: RapidAPI Hub から 16464 の実世界の Restful API を収集
- 命令生成: ChatGPT にこれらの API を含む多様な命令を生成するよう促し、シングル・マルチツールの両方のシナリオを網羅
- solution path アノテーション: 各命令に対して有効な solution path (API コールの連鎖) を検索
- ChatGPT を用いて自動的に構築される(以下の3段階)
- LLM のツール使用能力を評価する評価器
- API Retriever: 莫大な API の中からタスクを解決できそうな API 候補を提示
- 実験から、ToolBench をベースに LLaMA-7B を fine-tuning した ToolLLaMA は複雑な命令を実行し、未知 API に汎化する顕著な能力を示し、ChatGPT と同等の性能を示すことがわかった
- ToolLLaMA は未知のツール使用データセットにおいて、強力な zero-shot 汎化能力を実証している
solution path annotation
- 指示が与えられたとき、ChatGPT に有効な API のアクション列を探索させる
- 探索方法: Depth First Search-based Decision Tree = DFSDT
ToolEval
- Pass Rate: 限定されたアクション回数(論文では200回以内)で指示を達成できた割合
- Win Rate: 指示をどれだけ完了できたかを測定する指標
実験結果
- ToolLLaMA は、従来のツール使用法である ChatGPT-ReACT を Pass Rate, Win Rate ともに大幅に上回り、優れた汎化能力を示す
- ToolLLaMa + DFSDT は text-davinci-003 + DFSDT より性能が高い